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基于 作答 时 间 数 据 的 改变 点 分 析 在 检测 加 速 作答 
中 的 探索 一 一 已 知 和 未 知 项 目 参数 
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fi 要 。， 相 对 于 传统 的 离散 作答 数据 , 作答 时 间作 为 连续 数据 , 可 以 提供 更 多 信息 。 改 变 点 分 析 (change point 
analysis) 技 术 在 心理 和 教育 领域 是 一 个 比较 新 的 技术 。 本 文 一 方面 对 改变 点 分 析 在 心理 测量 领域 的 应 用 进行 了 一 个 
综合 的 总 结 和 分 析 ; 另 一 方面 , 将 基于 作答 数据 的 两 种 改变 点 分 析 统 计量 推广 到 作答 时 间 数 据 , 将 改变 点 分 析 技 
术 应 用 到 测验 异常 作答 模式 : 加 速 作答 speededness 的 检测 上 。 采 用 两 种 检验 方法 : 似 然 比 检验 和 Wald 检验 , 分 
别 在 已 知 和 未 知 项 目 参 数 的 条 件 下 ,实现 异常 作答 模式 的 检测 ,结果 表明 ,所 采用 的 方法 对 于 加 速 作答 行为 的 检测 
有 具有 很 高 的 检验 力 , 同时 能 够 很 好 的 控制 I 类 错误 率 。 实 证 数据 分 析 进 一 步 表 明 本 文中 所 使 用 的 方法 具有 应 用 价值 。 
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高 质量 的 测量 数据 是 对 考生 能 力 做 出 精确 评 
估 的 保障 。 然而 实际 情况 中 会 存在 许多 导致 系统 误 
差 的 因素 对 数据 的 质量 产生 影响 ,其 中 最 稼 见 的 因 
素 是 考生 的 异常 作答 行为 。 测验 过 程 中 常见 的 异常 
作答 行为 有 热身 效应 、. 加 速 作答 等 等 ( 骆 方 等 , 2020; 
TRIE & 等 ,2020)。 考生 出 现 异常 作答 行为 后 ,其 作 
答 数 据 与 其 正常 作答 时 的 数据 有 着 显著 的 不 同 。 考 
生出 现 异 常 作 答 行 为 时 产生 的 数据 称 为 异常 作答 
数据 或 异常 作答 模式 。 测验 数据 中 包含 异常 作答 数 
据 会 降低 其 自身 及 整体 测验 数据 的 质量 ， 从 而 对 后 
续 的 分 析 结 果 产 生 一 系列 的 不 良 影响 ,例如 造成 模 
型 与 数据 的 不 拟 合 、 被 试 与 题目 参数 估计 的 偏差 
(Stefan et al,. 2016), 影响 考试 的 信和 度 和 效 度 (Guo et 
al. 2009) 等 等 。 因 此 , 检测 测验 中 的 异 背 作答 数据 
是 非常 重要 和 关键 的 , 研究 者 们 也 一 直 在 寻找 相关 
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的 解决 方法 (如 Bejar 1985; Evans & Reilly, 1972; 
Shao et al,. 2016; Bradlow et al,. 1998; McLeod et al,. 
2003; Wise & Kong, 2005; Yu & Cheng, 2019, 2022)。 

改变 点 分 析 法 (change point analysis, CPA; Page, 
1955; Shao et al., 2016; Sinharay, 2016) 是 检测 过 程 
数据 中 存在 异常 的 常用 方法 ,多 用 于 判断 序列 数据 
中 是 否 存在 分 布 形态 的 变化 ， 即 数据 中 是 否 存 在 改 
变 点 。 它 的 基本 原理 是 : 在 一 组 序列 数据 中 , 样本 
按照 时 间 先 后 顺序 排列 ,在 不 同 的 时 间 点 , 样本 有 
不 同 的 取 值 。 如 果 从 某 个 时 刻 开始 ， 形成 时 间 序 列 
的 样本 不 再 服从 原来 的 分 布 或 者 样本 特征 ， 比 如 均 
值 或 方差 等 发 生 了 显著 的 变化 ， 即 表明 数据 中 出 现 
[f BUS (Hawkins et al., 2003), 改变 点 的 出 现 说 明 
事物 发 生 了 质 的 变化 。 

近年 来 研究 者 们 将 CPA 引入 心理 与 教育 测量 
领域 检测 测验 中 的 异常 作答 行为 或 异常 作答 模式 
(Zhang, 2014; Shao, 2016; Shao et al., 2016; Sinharay, 
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2016, 2017a, 2017b, 2017c; Yu & Cheng, 2019, 
2022), Shao 等 (2016), Sinharay (2016), Yu 和 Cheng 
(2019，2022) 等 研究 显示 了 CPA 在 检测 异常 作答 行 
为 或 异常 作答 模式 上 的 优势 。 在 测验 过 程 中 ,考生 
在 每 道 题目 上 的 作答 形成 了 独特 的 序列 数据 。 一 般 
情况 下 考生 的 作答 数据 会 服从 某 种 分 布 ， 例 如 考生 
的 作答 时 间 数 据 通 常会 服从 于 对 数 正 态 分 布 。 当 考 
生出 现 异 党 作答 行为 后 ,由 于 考生 的 作答 行为 不 同 
于 正常 作答 时 的 行为 ,因此 考生 的 作答 数据 也 会 发 
生性 质 上 的 改变 。 异 常 作答 行为 发 生 的 位 置 (测验 
中 题目 的 编号 ) 即 为 数据 发 生变 化 的 点 。 

使 用 CPA 检测 测验 中 的 异常 作答 行为 或 者 异 
第 作答 模式 ,可 以 从 两 种 数据 入 手 , 一 种 是 考生 的 
作答 数据 (response)， 另 一 种 是 作答 时 间 数 据 ， 即 考 
生 作 答 每 道 题 所 用 的 时 间 (response time)。 作 答 时 间 
数据 是 一 种 连续 数据 ， 同 时 包含 了 考生 能 力 信息 和 
题目 信息 (Marianti et al.2014)， 对 于 提高 考生 能 力 
估计 的 精度 与 优化 测验 设计 有 很 大 的 帮助 ; 如 今 随 
着 新 技术 的 发 展 ,计算 机 测验 与 在 线 评估 越 来 越 多 ， 
作答 时 间 数 据 的 获取 也 变 得 更 加 便利 ,逐渐 获得 学 
者 们 的 关注 。 例 如 van der Linden 和 van Krimpen- 
Stoop (2003) 使 用 作答 时 间 数 据 检 测 考 生 预 知 试题 
以 及 加 速 作 答 ; van der Linden 和 Guo (2008), Pan 和 
Wollack (2021) 等 使 用 作答 时 间 数 据 检测 测验 中 考 
生 预 知 试题 的 情况 等 等 。 还 有 人 研究 者 基于 不 同 的 应 
用 场景 构建 作答 时 间 模 型 ， 结 果 显 示 引 入 作答 时 间 
数据 有 助 于 模型 的 参数 估计 等 ,拓宽 了 作答 时 间 数 
据 的 使 用 范围 (Wang & Xu, 2015; 郭 小 军 ， 罗 照 成 ， 
2019; 詹 沛 达 , 2019; 詹 沛 达 等 , 2020)。 

以 往 基 于 CPA 检测 测验 中 异常 作答 行为 的 人 研 
究 多 是 基于 作答 数据 ， 如 今 作 答 时 间 数 据 的 优势 已 
经 凸显 ， 在 数据 分 析 中 引入 或 结合 作答 时 间 数 据 是 
非常 重要 的 发 展 趋势 。 另 外 , 由 于 加 速 作 答 是 众多 
异常 作答 行为 中 最 常见 和 普遍 的 (Goegebeur et al,. 
2008)， 对 于 测验 数据 质量 有 非常 大 的 负面 影响 ， 
受到 很 多 研究 者 的 关注 (比如 Bolt et al,. 2002; 
Oshima, 1994; Suh, et al,.2012; Yu & Cheng, 2022 
等 )。 因 此 本 研究 拟 聚 焦 于 作答 时 间 数 据 , 在 已 知 项 
目 参 数 和 未 知 项 目 参 数 条 件 下 ,分 别 使 用 CPA 77 
法 检测 由 加 速 作答 行为 造成 的 异常 作答 模式 。 需要 
注意 的 是 , CPA 方法 本 质 上 是 检测 异常 数据 的 方法 ， 
因此 它 同 样 可 用 于 检测 由 其 他 异常 作答 行为 如 题 
目 预 知 ， 热 喘 效 应 等 造成 的 异常 作答 模式 。 下 面 首 
先 介绍 CPA 技术 。 
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2 改变 点 分 析 CPA 技术 


CPA 广泛 应 用 于 生物 学 .统计 学 和 经 济 学 领域 ， 
虽然 已 有 学 者 将 它 引 入 教育 与 心理 测量 领域 , 但 它 
还 没有 得 到 很 好 的 开发 。 基 于 CPA 检测 异常 作答 
行为 的 已 有 研究 主要 有 : Zhang (2014)，Shao 等 
(2016), Shao (2016), Sinharay (2016, 2017a, 2017b, 
2017c), Yu 和 Cheng (2019，2022)。 其 中 ，Zhang 
(2014) 关 注 的 是 考生 预知 试题 信息 造成 的 试题 泄露 
现象 , 并 提出 了 一 种 实时 序列 试题 监控 方法 。 

Shao 等 (2016) 基 于 CPA 使 用 似 然 比 检验 探测 
加 速 作答 行为 ,这 种 方法 不 仅 可 以 将 考生 分 为 加 速 
组 和 非 加 速 组 , 还 能 比较 准确 地 找到 考生 开始 出 现 
异常 作答 行为 的 位 置 。 异 常 行为 发 生 的 位 置 使 得 测 
验 管理 人 员 通 过 去 除 可 疑 的 加 速 反 应 来 提高 能 
估计 的 精确 性 , 并且 为 实际 测验 中 设置 合适 的 测验 
长 度 提供 参考 。Shao 等 (2016) 使 用 检验 统计 量 为 

Al, = 2(IP« —1P») (1) 

Ems, LR 4 ap RE EI 
加 速 作答 行为 和 正常 作答 时 的 对 数 似 然 值 。 当 给 定 
考生 的 得 分 数据 ,可 以 使 用 MLE (Baker & Kim, 
2004) 等 算法 估计 出 考生 的 能 力 9 ,进一步 得 到 
IP» 而 1 = 六 + 六 ,六 和 /六 分 别 表示 基于 j 为 分 
界 点 的 两 个 子 测验 (第 1 个 子 测验 包含 题目 1，…， 
题目 7; 第 2 个子 测验 包含 题目 j+1,…, 题目 T 
对 应 的 似 然 函 数 。Al; 达到 最 大 值 的 位 置 即 考 生 开 
始 加 速 作答 的 位 置 ， 它 的 零 分 布 与 临界 值 可 以 通过 
置换 分 布 (Shao et al., 2016), 经 验 分 布 (Yu & Cheng, 
2022) 或 理论 近似 分 布 (Sinharay, 2016) 获 得 。 

Sinharay (2016) 使 用 3 种 CPA 统计 量 考 察 CAT 
中 的 被 试 拟 合 ,并 计算 3 种 统计 量 的 工 类 错误 率 和 
检验 力 。 人 研究 中 使 用 近似 零 分 布 检验 CPA 统计 量 。 
研究 结果 显示 CPA 统计 量 在 检测 包含 异常 作答 行 
为 的 考生 方面 具有 良好 的 性 能 。 下 面 是 3 个 CPA 
统计 量 : 


第 54 卷 


(8 , -9,;) 
USAa c. ep 
一 十 x 
Tj) L,(&) 
L; 2 2(L(Ó; Y, Y, Y) 


(2) 


LÔ Y, Yo, Y;)- 
DO T asses] (3) 
(V(&; Y, Yo, Y) 
Ss, = 一 一 一 一 + 
L; (05) 


第 10 期 
CC 
1, ;(@) 
由 于 变化 点 未 知 , 3 个 检验 统计 量 如 下 : 
Wimax = Eo "i G) 
Lmax = Ij " (9) 
Smax = imn E () 


DDA Ly; (Q) 4 0 2 6 Ip, 分 别 基于 试题 
1 至 试题 j 和 试题 j+1 至 试题 估计 的 Fisher 信息 
f. V(UyY h, Y) 82450 = Â BT Y Y, Y 对 数 
似 然 的 一 阶 导 函 数 。 此 外 ，Sinharay (2016) 还 使 用 
ROC (receiver operating characteristics) ff Z& EE £x 
CUSUM 程序 和 CPA 方法 的 表现 。 人 研究 结果 表明 ， 
在 很 多 条 件 下 基于 CPA 的 方法 比 基 于 CUSUM 的 
TEE AA 

Sinharay (2017a) 提 出 了 基于 似 然 比 检验 (C) 和 
拉 格 明日 乘 数 检 验 (也 称 得 分 检验 score test) 的 统计 
量 (R) 来 探测 考生 预知 试题 信息 的 异常 行为 。 
Sinharay (2017a) 将 测验 分 为 两 部 分 , 分别 为 9 和 了 ， 
正常 考生 ( 没有 从 预知 试题 信息 中 获 益 ) 基 于 s Rs 
的 得 分 的 后 验 分 布 以 及 能 力 估 计 值 是 非常 接近 的 ， 
而 当 考 生 预 知 某 些 试题 的 信息 时 ,这 两 部 分 的 后 验 
分 布 以 及 能 力 估计 值 应 该 具有 显著 差异 。 

L-2(L(8;y;, jes) LB iy; j es) 


L(Ói yj. j =1,2,…,n)] (8) 
ga Ins je sr Oyie s)P o5 
1,(65) I-(05) 


与 上 一 研究 类 似 ，0.,4 ,由 分 别 为 基于 7 和 
所 用 试题 (j =1,2,…,n) 的 能 力 估计 值 ，y, 表 示 得 分 ， 
L(Ó, yj, j es) 为 s 部 分 试题 得 分 的 对 数 似 然 ， 
V(@;yj,j es) 为 对 数 似 然 的 一 阶 导 函数 (Baker & 
Kim，2004)，7,(@) 表示 能 力 为 go 时 s 部 分 的 题目 
信息 量 之 和 。 其 余 类 似 。 人 研究 表明 ,这 两 种 统计 量 
可 用 于 适应 性 与 非 适 应 性 测验 ,二 级 和 多 级 计 分 题 
目 ， 且 服从 渐 近 的 标准 正 态 分 布 ， 这 对 实际 应 用 非 
常 有 利 。 另 外 研究 结果 显示 ,新 的 统计 量具 有 可 控 
的 工 类 错误 率 和 相对 较 高 的 检验 力 。 

Sinharay (2017b) 提 供 了 CPA 检测 的 一 般 过 程 ， 
对 如 何 选择 合适 的 统计 量 、 相 应 临界 值 的 获取 方法 
和 一 些 有 关 问 题 进行 了 讨论 , 提出 了 解决 方法 ， 并 
基于 Rasch 模型 ,通过 3 个 真实 数据 的 例子 说 明了 
如 何在 心理 测量 问题 中 应 用 CPA 检测 做 出 重要 的 
推论 。 
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基于 三 参数 Logistic 模型 (3PLM; Birnbaum, 
1968), Sinharay (2017c) 比 较 了 两 种 CPA 统计 量 ,一 
种 是 基于 似 然 比 检验 的 统计 量 L,， 男 一 种 是 后 验 
偏 移 统计 量 PSS (Belov, 2016), 在 检测 考生 存在 预 
知 试题 信息 行为 上 的 表现 。 这 两 个 统计 量 的 检测 原 
理 与 Sinharay (2017a) 类 似 ， 当 考生 从 预知 试题 中 
获 益 时 ,他 /她 在 测验 c 部 分 (包含 泄露 试题 的 部 分 ) 
上 的 能 力 估计 值 或 后 验 分 布 与 测验 u 部 分 (不 包含 
泄露 试题 的 部 分 ) 上 的 能 力 估计 值 或 后 验 分 布 距离 
eye, Ac 部 分 能 力 值 高 于 部 分 或 者 c 部 分 后 验 
分 布 在 u 部 分 后 验 分 布 的 右边 .到 的 绝对 值 等 于 世 
(Sinharay, 2017a) 的 平方 根 。 后 验 偏 移 统计 量 量 化 了 
两 种 后 验 分 布 的 距离 。 结 果 显 示 两 种 统计 量 的 一 类 
错误 率 和 探测 率 非 常 接近 。 

Yu 和 Cheng (2019) 提 出 了 一 种 基于 加 权 残 差 的 
CPA dili, 并 与 其 他 3 种 CPA 统计 量 (Sinharay， 
2016) 比 较 了 在 探测 后 程 随机 作答 (back random 
responding, BRRI) 行 为 上 的 表现 。 结 末 显 示 ， 基 于 加 
权 残 差 的 CPA 统计 量 可 以 在 20 个 题目 及 以 上 的 测 
验 中 较 准 确 的 检测 出 BRR。 和 其 他 3 种 统计 量 相 比 ， 
I 类 错误 率 都 能 很 好 的 控制 , 检验 力 高 出 17%~ 
42%。 实 证 研究 的 结果 也 显示 了 基于 加 权 残 差 的 
CPA 统计 量 在 检测 BRR 上 的 实用 性 。Yu 和 Cheng 
(2022) 比 较 了 12 种 CUSUM 统计 量 与 3 种 CPA 统 
计量 在 检测 加 速 作答 行为 上 的 性 能 。 为 检测 这 两 类 
方法 的 稳健 性 与 灵活 性 ,研究 中 考虑 了 两 种 不 同 的 
加 速 机 制 即 速度 渐变 与 速度 突变 ， 即 能 力 渐 变 模型 
(graduate change model, GCM) 和 能 力 突变 的 混合 模 
A (hybrid model, HM) 来 模拟 。 除 测验 长 度 外 ,还 考 
虑 了 加 速 行为 的 流行 程度 (有 加 速 行为 的 考生 在 考 
生 总 体 中 所 占 的 比例 )， 严重 程度 (出 现 加 速 行为 的 
考生 在 测验 中 受 加 速 行为 影响 的 题目 比例 ) 等 变量 。 

为 了 对 基于 CPA 的 方法 在 心理 测量 中 的 应 用 
有 一 个 更 具体 的 了 解 , 我 们 提供 了 如 下 的 表 1。 表 1 
中 详细 列 出 了 有 关 的 研究 ,并 且 从 不 同 的 角度 对 这 
些 研究 进行 了 一 个 综合 的 总 结 ， 从 其 中 我 们 可 以 得 
出 很 多 有 用 的 信息 。 例 如 ,从 各 研究 基于 的 数据 来 
源 看 ,所 有 研究 都 是 基于 作答 数据 ; 从 临界 值 的 获 
取 方 式 看 ， 只 有 两 项 研究 特殊 ， 分 别 是 Shao 等 
(2016) 是 基于 置换 分 布 获得 临界 值 和 Sinharay 
(2016) 是 采用 近似 临界 值 ， 其 余 使 用 的 都 是 经 验 临 
界 值 。 采 用 经 验 临 界 值 的 好 处 是 它 实现 简单 , 适用 
于 所 有 的 统计 量 , 不 像 近 似 临 界 值 只 适用 于 部 分 统 
计量 ， 也 不 像 使 用 置换 分 布 那样 需要 相当 长 的 时 间 
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表 1 与 心理 和 教育 测量 有 关 的 CPA 研究 


er. 测验 ”研究 ”数据 cr 题目 " T " 
文献 类 型 ”类 型 xn 测验 长 度 计 分 样本 量 模型 统计 量 临界 值 
Zhang (2014) A S&E R 40 2 10,000 3PLM 2 经 验 临 界 值 
Shao, Li & 基于 置换 分 布 
NA E R 2(E 2 E) 2PLM VI, 
Cheng (2016) S& 50,80(S)32(E) 500 (S), 5000 (E) ! 得 到 临界 值 
50(A),40,50, 60, Rasch T xg 
Shao (2016) NA&A S&E R^ 30 (NA) 2 1000 (NA &A) XOPLMI VL, W, 经 验 临界 值 
Sinharay 20,40,60,100(S) 100,000 (S) " eae 
(2016) 5 S&E — R [60-250] (E) 70,000 (E) Basen Wanaxs Lmax Se ”近似 临界 值 
| 1636, 1644 (E, NA) 
Sinharay 170(E,NA),170 ” Rasch (NA), L.R LA Ws Ve 
(20172) NA — S&E  R (sgNA)SO(SA) 2 1005000 (SNA), 3pLM (A) ^ Ds Rs 经 验 临界 值 
1000 (S,A) 
c0). a So Ee oe 2 70,000, 1644 Rasch Tosca Al E 
Sinharay 170 (E,NA),100 1636, 1644 (E, NA), " ES WM 
(20176) NASA BAE Æ C(SCNALSO(SA) ^ —d000(S NA&A) M s 经 验 临 界 值 
Yu & Cheng 20, 40, 60, 80, 5(S), WSR BIS 
(2019) NA S&E R100, 120($),19(E) atey 10000 (S), 6457 (E) GRM uo max» Sao Ro 经验 临界 值 
iun s NA S&E R 40,60,80(S)30(E) 2 1000 (S) 3000 (E) 2PLM Wao Lanao us 经 验 临 界 值 


注 : A Xs Ei EUIS, NA 表示 非 目 适应 测验 ; S 表示 模拟 研究 , E 表示 实证 研究 ; 题目 长 度 中 的 整数 范围 表示 的 是 非 定 长 CAT 中 


的 最 小 和 最 大 长 度 ; R 表示 作答 数据 , RT 表示 作答 时 间 数 据 。 


才能 获得 。 

A 1 中 虽然 没有 基于 作答 时 间 数 据 采 用 CPA 
方法 进行 检测 的 研究 , 但 已 有 类 似 研 究 基 于 作答 时 
间 数 据 检测 测验 中 的 异常 项 目 , 例如 Choe 等 (2018) 
使 用 序列 分 析 方 法 分 别 基于 作答 数据 、 作 答 时 间 数 
据 以 及 结合 两 种 数据 对 泄露 试题 进行 检测 。 该 研究 
结果 证 明了 在 相同 的 工 类 错误 率 情 况 下 ,方法 的 检 
验 力 呈 现 : () 仅 基于 作答 时 间 数 据 的 检验 力 要 比 仅 
使 用 作答 数据 的 检验 力 高 得 多 ; (2) 结 合 两 种 数据 对 
泄露 试题 进行 检测 的 方法 有 两 种 ， 其 中 一 种 方法 的 
检验 力 略 大 于 仅 基 于 作答 时 间 数 据 的 检验 力 ， 第 二 
种 方法 的 检验 力 则 远 远 小 于 仅 基 于 作答 时 间 数 据 。 
并 且 基 于 作答 时 间 数 据 进 行 检 测 的 探测 点 的 识别 
延迟 是 Choe 等 (2018) 所 有 方法 中 最 小 的 。 从 Choe 
等 (2018) 的 研究 可 以 发 现 相 比 于 作答 数据 ， 作 答 时 
间 数 据 的 确 可 以 提供 更 多 的 测验 信息 ， 从 而 使 检验 
力 有 实质 性 的 提高 。 

如 今 作 答 时 间 数 据 的 获取 已 经 越 来 越 容 易 ， 并 
且 作 答 时 间 数 据 在 检测 考生 的 异常 作答 行为 上 比 
作答 得 分 数据 拥有 先天 的 优势 。 比 如 当 某 位 考生 的 
作答 模式 为 [1111101010] 时 仅 从 分 数 上 不 容易 判断 
考生 是 否 出 现 了 加 速 作答 , 但 是 结合 作答 时 间 数 据 
[57, 48, 51, 36, 42, 23, 18, 13, 7, 6] 则 更 容易 判断 ， 
因为 加 速 作 答 的 直接 体现 就 是 在 作答 时 间 上 。 因 此 
基于 作答 时 间 数 据 检测 异常 作答 行为 是 具有 非常 


好 的 研究 前 景 的 。 
3 基于 CPA 的 统计 量 


从 表 1 中 可 知 , 常用 的 CPA 统计 量 大 致 有 4 种 ， 
分 别 是 基于 似 然 比 检验 的 统计 量 (VL Linax Ls), BE 
于 Wald 检验 的 统计 量 QV, Vi?) , FETA S US BU 
统计 量 (Ry Smax) 和 基于 残 差 检 验 的 统计 量 (Rmax ) o 
这 几 种 统计 量 都 是 通过 检验 是 否 能 拒绝 虚无 假设 
(考生 的 潜在 特质 没有 发 生 显著 的 变化 或 考生 的 作 
答 数据 没有 异常 变化 ) 来 判断 考生 是 否 存 在 异常 作 
答 行 为 ,本 人 研究 是 基于 作答 时 间 数 据 检 测 异 党 作答 ， 
这 里 选用 基于 似 然 比 检验 和 Wald 检验 的 统计 量 。 

本 人 研究 关注 的 异常 作答 行为 是 加 速 作 答 行为 ， 
因此 在 研究 中 使 用 单 侧 检验 。 考 生出 现 加 速 作答 行 
为 后 ,考生 的 答题 速度 会 增 大 。 当 变 点 左 已 知 时 ， 
两 个 统计 量 的 虚无 假设 为 考生 i 在 前 个 题目 上 的 
速度 参数 等 于 后 (J -hh) 个 题目 上 的 速度 参数 ， 即 
Tik- =Tik4+o。 备 择 假 设 为 考生 i 在 前 个 题目 上 的 速 
度 参 数 小 于 后 (J -有 个 题目 上 的 速度 参数 ， 即 
全 -< 合 k。 下 面 对 两 种 统计 量 基于 作 管 时 间 数 据 
时 的 形式 进行 介绍 。 
3.1 似 然 比 检 验 

van der Linden (2006) 提 出 的 对 数 正 态 模型 是 
应 用 最 为 广泛 的 作答 时 间 模 型 ,在 很 多 实证 研究 中 ， 
它 对 作答 时 间 数 据 的 拟 合 都 较 好 。 本 人 研究 也 使 用 该 
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模型 ,假设 考生 1 在 题目 上 的 作答 时 间 志 服从 以 
下 密度 函数 
f(ty;T,0),pP;)= 


exp |- 51e; 0nt, - Vj -a | (10) 
t; N27 ad ij J ʻi 

相当 于 
In(t,;) = B, c; + &j,£y ~ N(0,a; ^) (11) 


其 中 B, e (—co, 00) Ay iE TR] SR E AC, p, 值 越 大 表明 
作答 题目 7 需要 花费 的 时 间 越 长 ; rm e (70,00) 是 考 
生 i 的 速度 参数 , 通常 假定 t+ 服从 正 态 分 布 ; o, 为 
时 间 区 分 度 参数 ， 其 作用 类 似 于 题目 反应 模型 中 的 
区 分 度 参数 。 

基于 作答 时 间 模 型 ( 即 公 式 10) 可 得 考生 的 作 
答 时 间 数 据 # 的 似 然 函 数 为 : 


n a: 1 
L(z,;t.) = t —-[a (lnt, — -5 az 
(rsh) Lm] sla (int, - (2, - n (02) 


其 中 t=(#,b,…,b) 是 考生 i 在 所 有 题目 上 的 作答 
时 间 数 据 。 因 此 Lz,;t) 的 对 数 似 然 函 数 为 


n a. 
Iri) = InL(;t) = > j 
n t2 


DX (Int, - (B; - c) (13) 
j=l 


似 然 比 检验 的 公式 与 Shao 等 (2016) 类 似 : 
AL™ = -2x1 —1) (14) 
[^ =E ot) 是 通过 使 用 考生 在 所 有 题目 上 的 
作答 时 间 数 据 估计 出 的 速度 参数 二 6 计算 得 到 的 对 
数 似 然 。 假 设 考生 的 速度 参数 在 题目 上 之 后 立即 发 
生 了 突变 , 给 定 改变 点 天 时 ,加 速 时 的 对 数 似 然 为 : 
i = VK, stia y) IG tbig) (15) 
£,, xe fi HAE ^E i 在 前 上 个 题目 上 的 作答 时 间 
数据 (Fig =the ote) 估计 出 的 速度 参数 ， 语 局 
FE (SAE i 在 第 丰 +1 至 /个 题目 作答 时 间 数 据 佑 
计 出 的 速度 参数 。 由 于 在 实际 情况 中 , 改变 点 的 位 
置 是 未 知 的 ,因此 将 检验 统计 量 设 为 所 有 可 能 的 改 
变 点 位 置 上 的 AL 的 最 大 值 : 


Alax; = max AL (16) 
”  k=1,2,-+-(J-1) 


当 Anai 在 某 个 置信 水 平 上 超出 可 接受 的 范围 
时 拒绝 虚无 假设 ,说 明 考 生 的 作答 时 间 数 据 中 出 
现 了 改变 点 。 
3.2 Wald 检验 

单 侧 Wald 检验 统计 量 的 公式 如 下 : 
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(f, k- zee 

Í 1 
Tyo) Lro) 
HP (Co) M p Co) 分 别 是 基于 考生 ;在 前 
k 个 题目 上 和 后 (7 -hk) 个 题目 上 的 作答 时 间 数 据 售 

计 的 Fisher 信息 量 。 当 未 知 时 , 检验 统计 量 为 


W ,= max W® 18 
max, pS i ( ) 


当 Wi Hea PE fa KOOP EER 8 5 A 
围 时 拒绝 虚无 假设 ， 说明 考生 的 作答 时 间 数 据 中 
出 现 了 改变 点 。 

本 研究 将 1 和 丈 久 达到 最 大 值 的 下 一 个 项 目 
作为 加 速 点 的 估计 值 ， 即 考生 i 从 那个 项 目 开 始 表 
现 出 加 速 作答 行为 。 

3.3 CPA 统计 量 临 界 值 的 获取 

和 基于 作答 数据 的 似 然 比 检验 类 似 ， 基 于 作答 
时 间 数 据 的 Al 也 没有 形成 一 个 封闭 的 分 布 形 
态 。 参 考 表 1 中 的 信息 , 统计 量 临 界 值 可 通过 置换 
分 布 、 经 验 临 界 值 和 近似 临界 值 获得 。 由 于 置换 分 
布 方法 的 计算 量 非常 大 , 需要 很 长 的 时 间 获 得 临界 
值 ; 而 近似 临界 值 比较 适合 改变 点 出 现在 测验 中 间 
位 置 (比如 中 间 70% 的 位 置 ) 的 情况 (Sinharay, 2016)。 
在 实际 情况 中 加 速 作 答 更 容易 出 现在 测验 中 晚期 
阶段 ， 因 为 考生 在 测验 的 中 晚期 阶段 更 容易 感受 到 
时 间 的 压力 。 因 此 本 研究 采用 经 验 临 界 值 。 

4k pm A B m REOS 1 的 卡 方 分 布 ， 
AK UR WO RAT, uo; 也 不 能 形成 一 个 封闭 
的 分 布 形态 。Sinharay (201675, Wnai 的 渐进 零 
分 布 和 似 然 比 统计 量 的 渐进 零 分 布 是 相同 的 。 这 里 
Wald 检验 统计 量 的 临界 值 也 采用 经 验 临 界 值 。 具 
体 过 程 如 下 。 

参考 Worsley (1979), 通过 公式 11, 在 测验 长 
FEA 40,60,80 的 条 件 下 随机 生成 10000 个 正常 的 作 
符 时 间 模 式 。 基 于 前 面 介绍 的 似 然 比 统计 量 和 Wald 
统计 量 的 计算 公式 , 分 别 得 到 Alas 和 所 sx; 的 
10000 个 值 ; 将 它们 按 从 大 到 小 排序 , 得 到 它们 第 
500 .第 100 和 第 10 ARAT coos, Coor Fi cooo 分 
别 近似 对 应 检验 水 平 为 0.05，0.01，0.001 时 的 临界 
值 .每 种 实验 条 件 重 复 100 K, WEIK coos Coo 
和 coool 值 作为 后 面 实验 中 用 到 的 经 验 临 界 值 。 


4 基于 加 速 作答 行为 的 作答 时 间 模 型 


加 速 作 管 行为 通常 发 生 在 有 时 间 限 制 的 考试 
中 。 当 考试 临近 结束 时 ,未 完成 作答 的 考生 由 于 受 


W = (17) 
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到 时 间 因 素 的 影响 会 倾 回 于 提高 自己 的 答题 速度 ， 
出 现 加 速 作答 。 考 生出 现 加 速 作答 行为 时 ,由 于 答题 
速度 的 增加 ， 其 作答 时 间 会 少 于 正常 的 答题 时 间 。 

为 模拟 考生 加 速 作答 行为 下 的 作答 时 间 ， 以往 
的 研究 提出 了 两 种 方法 , 第 一 种 是 将 考生 在 加 速 作 
答 行为 下 的 作答 时 间 设 置 为 固定 的 几 个 水 平 ， 比 如 
10 s, 20 s, 30 s (van der Linden & Guo, 2008); 第 二 
种 是 在 对 数 正 态 作 答 时 间 模 型 的 参数 7 上 增加 一 
NEL, 表示 加 速 作 答对 考生 答题 速度 产后 的 影 
啊 。 在 van der Linden 和 van Krimpen-Stoop (2003) 
的 研究 中 , 工 被 设置 为 0.375 和 0.750。 这 两 种 方式 
都 将 加 速 作答 设置 成 了 固定 效应 ， 即 所 有 加 速 作答 
的 考生 都 会 出 现 相 同 的 作答 时 间或 受到 相同 大 小 
的 影响 ,这 其 实 不 太 符 合 实际 情况 。 

Yu 和 Cheng (2019) 曾 回顾 了 加 速 作 答 考 生 可 
能 存在 的 两 种 潜在 加 速 作答 机 制 ， 即 作答 速度 突变 
和 作答 速度 逐渐 改变 ,并 使 用 两 种 模型 来 表示 这 两 
种 作答 机 制 ， 分 别 是 混合 模型 (the hybrid model, 
HM) 和 逐渐 变化 模型 (the graduate change model, 
GCM). 一 方面 , 关于 加 速 作答 行为 对 于 考生 做 题 
的 影响 机 制 ，HM 假设 考生 出 现 加 速 作答 时 的 作答 
速度 会 发 生 突 变 ; 而 GCM 认为 考生 在 加 速 点 之 后 
的 题目 上 的 答对 概率 会 逐渐 下 降 ; 另 一 方面 有 加 
速 作 答 行 为 的 考生 ， 他 们 出 现 加 速 作答 行为 的 位 置 
是 随机 变量 ， 即 加 速 点 各 不 相同 。 

在 本 人 研究 中 ,我 们 拟 采 用 更 可 能 出 现 的 作答 速 
度 “ 逐 渐 改 变 ” 的 方式 来 模拟 数据 。 Wollack 和 Cohen 
(2004) 构 建 了 基于 作答 数据 的 加 速 模型 ， 该 模型 是 
模拟 加 速 作 答 考 牛 在 题目 上 的 正确 概率 发 生 “ 逐 渐 
改变 (下 降 )”， 并 且 每 位 加 速 作 答 考生 有 其 独特 的 
加 速 模式 。Goegebeur 等 人 (2008) 进 一 步 考 察 了 该 
模型 的 参数 估计 。 基 于 概率 “逐渐 改变 ”的 三 参数 模 
型 为 : 


expla ; (6, -b,)] x 
1 exp[a;(6, —b,)] 


MH om 


. " expla , (0; — b; 、 
Jt, cde, COPI 2) 是 常规 的 
1r exp[a;(8; — b;)] 


2PLM, n; (0< n; <1) 表示 考生 发 生 加 速 作 答 的 位 
置 ， 比 如 : 7 20.8 表示 考生 i 在 最 后 20% 的 题目 上 
出 现 加 速 作 答 。 加 入 速度 调节 参数 4 调节 加 速 作答 
行为 中 正确 作答 概率 下 降 的 快慢 ， 这 个 模型 已 经 在 
很 多 研究 中 用 来 模拟 加 速 作 答 数据 (Shao et al., 


* 
E = 


c, t(1-c;) 
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2016; Suh et al., 2012). 
类 似 地 ,本 人 研究 中 构建 基于 对 数 正 态 作答 时 间 
模型 的 作答 时 间 逐 渐 下 降 模 型 ,形式 如 下 : 
In(t;;) 2 (B; -Ti+ Ej) 


. Ai 
nin([1-(2-n )|) ej ~ NO, aj ^) (20) 


这 个 公式 中 的 入 参数 与 上 面 公 式 中 的 参 
数 含义 相同 。 当 测验 没有 进行 到 ww; 所 表示 的 阶段 时 


LEDEN, sca i28) 的 值 会 大 于 1, 


. A; 
wis( i (£-)] =1, sittar 


依旧 使 用 对 数 正 态 作答 时 间 模 型 模拟 。 当 测验 进行 


Sn Feb, Ls M mafiji- 


| 1; 
(2-«)] 小 于 1; 此 时 nd )) 的 值 将 小 于 其 正常 


的 作答 时 间 ， 表示 考生 在 w 所 表示 的 阶段 上 出 现 了 
异常 的 加 速 作 管 行为 。 


5 模拟 人 研究 


为 了 完整 的 阐述 CPA 方法 的 使 用 过 程 以 及 评 
价 CPA 方法 在 作答 时 间 数 据 上 检测 异常 作答 模式 
和 加 速 作答 行为 上 的 表现 , 我 们 拟 进行 模拟 研究 和 
实证 数据 分 析 。 通 常 来 说 ,实证 数据 中 的 项 目 参 数 
有 可 能 是 已 知 的 (比如 自 适 应 测验 系统 ), 也 有 可 能 
是 未 知 的 。 因 此 , 我 们 考虑 在 已 知 项 目 参 数 和 未 知 
项 目 参 数 的 条 件 下 分 别 展开 模拟 研究 。 对 于 已 知 项 
目 人 参数， 实验 中 只 需要 估计 考生 的 速度 参数 ， 采 用 
EAP 算 法 (Shao, 2016); 对 于 未 知 项 上 日 参数 , 项 目 参 
数 基 于 全 体 考 生 的 数据 , 采用 MCMC 算法 (Fox et 
al., 2021) 估 计 得 到 。 
5.1] 模拟 研究 设计 

模拟 人 研究 中 考生 的 数量 固定 为 1000, 考虑 3 种 
测验 长 度 分 别 40, 60 和 80, 它们 的 测验 总 时 间 分 别 
设置 为 60, 90 和 120 分 钟 (Shao, 2016)。 考 生 中 出 现 
加 速 行为 的 比例 为 10%，20% 和 30%， 分 别 表 示 加 
速 作 答 行 为 的 3 种 流行 程度 ( 低 、 中 和 高 )。 改 变 点 
位 置 w 将 从 4 种 分 布 中 生成 , 详细 信息 呈现 在 数据 
生成 部 分 。 当 考试 结束 ， 考 生还 未 完成 所 有 的 试题 
时 测验 直接 终止 ,没有 做 完 的 题目 的 作答 时 间 设 置 
为 0, 考生 直接 被 标记 为 具有 加 速 行为 。 模 拟 研 究 
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FE3x3x4x2=72 MALE, 每 种 条 件 重复 50 次 (模拟 
条 件 见 表 2)。 模 拟 研 究 使 用 R 程序 完成 。 


R2 RMR 


因素 水 平 
测验 长 度 40, 60, 80 
加 速 作答 考 生 的 比例 10%, 20%, 30% 
改变 点 的 位 置 参数 N, Median (0.6,0.7)x c; (0.04,0.001) 
项 目 参 数 CA, RE 


5.2 ”数据 的 生成 

参考 Patton (2015) 将 题目 区 分 度 参 数 a 和 难度 
参数 bp 设置 为 a~ InN(0,0.5),b ~ N(0,1) ,正常 考生 与 
具有 加 速 行为 考生 的 作答 时 间 由 公式 (11) 与 (20) 生 
成 ,其 中 时 间 区 分 度 参 数 w 服从 均匀 分 布 
U (1.75,3.25) ; 时 间 强 度 参 数 B, 和 速度 参数 去 参考 
Patton (2015) 的 设置 : p 均值 为 4, 标准 差 为 1/3, 
B; 与 题目 区 分 度 参数 a 和 难度 参数 b 的 相关 系数 
设置 为 0.3,0.5; t; ~ N(0,.25) 。 对 于 具有 加 速 作 答 行 
为 的 考生 , 我 们 采用 与 Suh 等 (2012) 相 同 的 做 法 来 
生成 速度 调节 参数 ， 即 4 ~ log N(3.912,1) 。 改 变 点 
位 置 九 按照 Shao 等 (2016) 的 处 理 ， 即 假定 7 服从 
beta 分 布 ,并 且 中 值 为 0.6 和 0.7, 21288 o; = 
0.001 和 0.04,， 对 应 的 4 种 beta 分 布 具 体形 式 为 : 
beta (143.367, 95.689), beta (2.970, 2.091), beta 
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(146.345, 62.910) 和 beta (3.033, 1.490)。 这 样 一 来 ， 
改变 点 的 分 布 如 下 图 1 所 示 。 需要 注意 的 是 w 是 以 
百分比 来 反应 加 速 作答 的 位 置 ,对 于 测验 长 度 为 40 
的 测验 ，7; = 0.6 表示 考生 将 从 第 25 题 开始 加 速 作 
7k, All 表明 当 cy =0.001, 生成 的 加 速 作 答 起 点 
都 接近 于 中 值 ， 而 当 ow =0.04 时 ,加速 作答 起 点 
会 更 加 分 散 ， 可 能 出 现在 测验 的 任何 地 方 ,甚至 可 
能 出 现在 接近 测验 结束 的 地 方 。 在 我 们 的 研究 中 ， 
考虑 将 接近 测验 中 后 期 的 地 方 作为 加 速 作答 的 起 
点 ， 主 要 原因 有 两 个 方面 : 首先 是 加 速 作答 在 通常 
情况 下 更 容易 出 现在 测验 中 后 期 ; 其 次 本 研究 想 要 
考察 当 改变 点 不 是 在 接近 测验 中 间 的 位 置 时 ,近似 
临界 值 是 否 可 以 直接 应 用 (Sinharay, 2016)。 

两 种 统计 量 的 临界 值 首 先 通过 蒙特 卡 洛 模拟 
ER, 需要 注意 的 是 , 在 已 知 项 目 参 数 的 实验 条 件 ， 
所 有 的 计算 结果 都 是 基于 项 目 参数 真 值得 到 ; 在 未 
知 项 目 参数 时 的 实验 条 件 ,所 有 的 计算 结果 都 是 基 
于 项 目 参 数 的 估计 值得 到 。 随 后 与 Sinharay (2016) 
中 采用 的 近似 临界 值 进行 比较 ,选取 合适 的 临界 值 
用 于 加 速 作答 行为 的 检验 。 

5.3 ”异常 作答 数据 的 检测 过 程 

基于 前 文 对 CPA 统计 量 的 分 析 , 人 研究 拟 使 用 
似 然 比 统计 量 与 Wald 统计 量 依 次 对 每 位 考生 的 作 
答 时 间 数 据 进行 检测 。 大 致 过 程 如 下 : (1) 计 算 每 位 


0 0.2 0.4 0.6 0.8 1.0 


加 速 位 置 


加 速 位 置 


0 0.2 0.4 0.6 0.8 1.0 


0 0.2 0.4 0.6 0.8 1.0 
加 速 位 置 


0 0.2 0.4 0.0 0.8 1.0 
加 速 位 置 


图 1 改变 点 的 分 布 
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考生 在 每 道 题 上 的 似 然 比值 ,选取 最 大 的 似 然 比 值 
作为 似 然 比 统计 量 的 值 Wald 检验 类 似 ; (2) 将 两 种 
方法 的 统计 量 与 各 自 对 应 条 件 下 的 临界 值 进行 比 
较 ， 当 统计 量 值 超出 临界 值 时 , 将 考生 的 作答 数据 
标记 为 异常 作答 数据 ; (3) 当 考生 的 作答 数据 标记 为 
异常 时 , StI ee REA A A is; (OH 
预定 的 评价 指标 对 CPA 方法 的 检测 效果 进行 评价 。 
5.4 评价 指标 

使 用 I 类 错误 率 和 检验 力 评价 CPA 方法 的 性 能 ， 
I 类 错误 率 和 检验 力 的 最 终结 果 为 每 种 条 件 下 的 均 
值 。 并 计算 在 给 定时 间 内 未 完成 测验 的 学 生 比 例 
(%NP) 以 及 检测 到 的 改变 点 位 置 与 真实 改变 点 位 置 
之 间 绝 对 的 延迟 (absolute detection lag, ADL)TR ER 
的 均值 和 标准 差 。 工 类 错误 率 、 检 验 力 和 4Z 的 计算 
公式 分 别 如 下 


错误 标记 加 速 考生 的 数量 


I 类 EIE AL 一 21 
AUR 正常 考生 的 总 数 eh) 
、， ”正确 标记 加 速 考 生 的 数量 

VoL) ei 22 
58.7] = 一通 作答 老生 总 数 a 

N 

>| 5 - P| 

_ i-l 

EE (23) 


Ep, pM p, 表 示 考 生 i 由 CPA 方法 探查 到 的 改变 
点 的 位 置 和 真实 的 改变 点 位 置 ，N 是 考生 人 数 。 

计算 在 给 定时 间 内 未 完成 测验 的 学 生 比 例 
(%NF) 是 为 了 考察 测验 时 间 、 测 验 长 度 等 设置 的 是 
否 合理 ,为 测验 设计 提供 一 些 有 用 的 参考 信息 。 
5.5 ”模拟 研究 结果 

表 3 中 分 别 给 出 了 已 知 项 目 参 数 和 未 知 项 目 参 
数 时 的 临界 值 ， 呈现 的 是 每 种 实验 条 件 下 临界 值 的 
平均 值 和 标准 差 。 由 于 似 然 比 检验 统计 量 和 Wald 
检验 统计 量 的 经 验 临 界 值 几乎 相同 , 表 3 只 给 出 了 
似 然 比 检验 统计 量 的 临界 值 。 一 方面 , 从 表 3 可 以 
看 出 , 未 知 项 目 参数 对 临界 值 的 影响 较 小 。 另 一 方 
面 ， 经 验 临 界 值 随 着 检验 水 平 有 明显 的 变化 ,这 与 
随 测验 长 度 的 变化 不 同 。 随 着 测验 长 度 的 增加 ， 临 
界 值 只 有 轻微 的 增加 。 经 验 临 界 值 在 o = 0.05 和 
0.01 时 的 方差 比较 小 ， 表 明 临 界 值 还 是 比较 稳定 
的 。 对 于 a=0.001 时 , 方差 比较 大 是 可 以 解释 的 ， 
因为 临界 值 是 基于 10,000 的 样本 ,在 分 布 的 末端 , 
统计 量 的 值 应 该 有 更 大 的 波动 。 

Sinharay (2016) 中 的 表 1 (p.531) 呈 现 了 各 置信 
水 平 下 的 近似 临界 值 ， 当 a= 0.05 时 列 出 的 临界 值 
从 8.45 到 9.84; 当 a=0.01 时 , 临界 值 从 11.69 到 
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13.01。 与 Sinharay (2016) 中 的 近似 临界 值 相 比 ， 表 
3 中 的 数据 虽然 差异 不 是 太 大 , 但 还 是 有 些 不 同 。 
正如 前 面 所 解释 的 ,近似 临界 值 可 能 更 适合 在 长 测 
验 中 使 用 , 并且 加 速 作 答 发 生 的 位 置 容 易 出 现在 中 
后 期 的 位 置 ， 而 不 是 出 现在 测验 早期 。 在 我 们 的 模 
拟 中 , 测验 长 度 相 对 都 较 短 ,， 并且 加 速 作答 的 位 置 
可 以 出 现在 测验 的 任何 位 置 ， 这 应 该 就 是 经 验 临 界 
值 与 近似 临界 值 出 现 较 小 差异 的 原因 。 在 不 同 测验 
长 度 和 重复 实验 上 出 现 较 稳 定 的 经 验 临 界 值 表明 
使 用 经 验 临 界 值 是 合适 的 。 因 此 , 根据 表 3 所 列 的 
取 值 分 别 作为 不 同 测验 长 度 下 09,95, 06.9; 和 ooool 的 
临界 值 。 

X 3 似 然 比 检验 统计 量 对 应 的 经 验 临 界 值 的 均值 和 标 

准 差 


项 目 参 数 测验 长 度 


40 8.068 (0.08) 11.214 (0.21) 15.702 (0.58) 

已 知 60 8.261 (0.07) 11.470 (0.20) 15.885 (0.58) 
80 8.352 (0.09) 11.732 (0.19) 16.247 (0.61) 
BEDA 40 8.247 (0.12) 11.389 (0.30) 15.824 (0.65). 
未 知 60 8.353 (0.10) 11.517 (0.36) 15.889 (0.66) 
80 8.366(0.21) 11.798 (0.34) 16.456 (0.73) 


(10.05 


00.01 


00.001 


表 4 和 表 5S 分 别 给 出 了 已 知 和 未 知 项 目 参数 时 
各 实验 条 件 下 的 似 然 比 统计 量 的 检验 力 和 工 类 错误 
率 ， 从 结果 可 以 看 出 ,两 种 统计 量 在 已 知 项 目 参数 
时 的 表现 要 略 好 一 些 , 但 是 它们 在 不 同 实验 条 件 下 
表现 的 变化 趋势 比较 一 致 。 
5.5.4 已 知 项 目 参 数 的 结果 

所 有 条 件 下 ,除了 在 测验 长 度 为 80, 显 车 性 水 
平 为 0.001 时 ， 其 它 条 件 下 的 工 类 错误 率 都 只 是 稍 
微 大 于 对 应 的 显著 性 水 平 。 与 此 同时 ,不论 测验 的 
KE, 改变 点 的 分 布 ， 以 及 受 加 速 作答 影响 的 被 试 
比例 ， 每 种 条 件 下 的 检验 力 都 很 高 ,很 多 情况 下 都 
接近 于 1。 比 如 : 测验 长 度 更 长 或 受 加 速 作 答 影 响 
的 题目 比例 越 高 时 , 检验 力 相 对 会 更 高 。 整 的 来 说 ， 
与 基于 作答 数据 来 说 ， 基 于 作答 时 间 数 据 对 加 速 作 
答 的 检验 力 会 高 很 多 ， 比 如 ，Shao 等 人 (2016) 报 告 
的 基于 作答 得 分 数据 检验 加 速 行 为 的 检验 力 在 
0.60 到 0.90, 而 Sinharay (2016) 报 告 的 检验 力 在 多 
数 条 件 下 相对 更 低 , Yu 和 Cheng (2022) 报 告 的 检验 
力也 低 于 本 研究 中 的 检验 力 。 这 些 都 说 明 ， 基于 作 
符 时 间 检 测 异 常 作答 行为 更 有 优势 。 就 I 类 错误 率 
来 说 ,每 种 条 件 下 都 能 有 很 好 的 控制 , 都 只 是 稍微 
大 于 对 应 的 显著 性 水 平 。 
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A4 模拟 研究 结果 (已 知 项 目 参数 ) 
n. % Tem Thar did = WNF — ADL yen ADL gp 
长 度 0.05 0.01 0.001 0.05 0.01 0.001 
0.6 0.001 0.98 0.98 0.98 0.053 0.012 0.0013 4.84 0.75 0.68 
0.7 0.001 0.97 0.97 0.97 0.053 0.012 0.0012 4.81 0.96 0.97 
i 0.6 0.04 0.96 0.96 0.95 0.055 0.013 0.0014 4.65 2.72 2.95 
0.7 0.04 0.94 0.94 0.93 0.051 0.012 0.0015 4.80 5.43 6.45 
ii 下 06 0.001 098 097 0.96 0.054 0.011 0.005 451 080 O07 
0.7 0.001 0.96 0.96 0.95 0.052 0.011 0.0016 4.56 1.04 1.15 
" " 0.6 0.04 0.96 0.96 0.95 0.052 0.012 0.0014 4.49 4.07 4.95 
0.7 0.04 0.94 0.93 0.93 0.053 0.013 0.0013 4.58 6.68 6.99 
3 0.6 0.001 0.96 0.96 0.95 0.056 0.012 0.0013 3.90 0.86 0.88 
0.7 0.001 0.94 0.94 0.93 0.052 0.013 0.0012 4.00 1.11 1.08 
i 0.6 0.04 0.95 0.95 0.94 0.004 0.011 0.0013 3.90 5.20 6.12 
0.7 0.04 0.93 0.93 0.93 0.053 0.012 0.0012 4.25 8.08 147 
0.6 0.001 1.00 1.00 1.00 0.057 0.011 0.0016 6.78 1.05 1.62 
0.7 0.001 0.98 0.98 0.97 0.056 0.012 0.0015 6.88 1.34 1.39 
ii 0.6 0.04 0.99 0.99 0.99 0.050 0.013 0.0014 6.95 5.67 7.55 
0.7 0.04 0.98 0.97 0.96 0.056 0.014 0.0013 7.24 7.86 9.48 
EXE 0.6 0.001 100 1.00 100 0.058 0.012 0.0014 665 138 175 
0.7 0.001 0.98 0.98 0.96 0.007 0.012 0.0016 6.57 1.64 1.82 
E BE 0.6 0.04 0.99 0.99 0.97 0.055 0.013 0.0017 6.64 7.05 7.67 
0.7 0.04 0.96 0.95 0.95 0.054 0.013 0.0014 6.82 9.12 9.91 
— 06 0.001 100 1.00 100 0.056 0.011 0.015 619 188 183 
0.7 0.001 0.99 0.99 0.98 0.054 0.013 0.0013 6.08 2.09 1.92 
" 0.6 0.04 0.99 0.99 0.99 0.055 0.012 0.0013 5.99 9.21 9.46 
0.7 0.04 0.97 0.96 0.96 0.055 0.011 0.0018 6.25 10.78 — 10.71 
0.6 0.001 1.00 1.00 1.00 0.067 0.015 0.0025 6.94 1.75 1.96 
0.7 0.001 1.00 1.00 1.00 0.076 0.017 0.0023 7.48 1.83 2.24 
e 0.6 0.04 1.00 1.00 1.00 0.071 0.06 0.0024 7.17 5.99 7.08 
0.7 0.04 1.00 1.00 0.99 0.074 0.015 0.0021 7.88 10.98 10.32 
cs 06 0.001 100 1.00 100 0.072 0.016 0.002 642 187 199 
0.7 0.001 1.00 1.00 1.00 0.073 0.017 0.0026 6.46 1.95 2.36 
* B 0.6 0.04 1.00 1.00 1.00 0.0705 0.015 0.001 6.71 7.05 7.49 
0.7 0.04 1.00 1.00 0.98 0.074 0.016 0.0023 6.85 9.33 10.38 
—— 4 06 0.001 100 1.00 1.00 0.073 0.016 0.003 633 1.76 228 
0.7 0.001 1.00 1.00 1.00 0.074 0.015 0.0025 6.30 2.26 2.49 
ui 0.6 0.04 0.99 0.99 0.99 0.077 0.017 0.0022 6.54 12.64 — 12.49 
0.7 0.04 0.98 0.99 0.98 0.073 0.016 0.0024 6.75 13.95 — 13.71 


绝对 延 人 返 (4DL) 指 标的 均值 和 标准 差 在 ,= 
0.001 时 很 小 。 当 ,=0.04 ,并 且 测 验 长 度 为 80 时 ， 
这 个 延迟 相对 比较 大 ,最 大 接近 14。 如 图 1 所 示 ， 
M nau 较 大 ， 意味 着 改变 点 发 生 的 位 置 可 以 在 测验 
的 任何 位 置 ， 可 以 出 现在 测验 的 末期 这 种 情况 下 
可 能 很 难 准 确 地 检测 到 它 真实 发 生 的 位 置 。 已 有 的 
人 研究 (Andrews, 1993; Hawkins et al., 2003) 表 明 ， 基 


于 CPA 的 方法 更 适合 在 中 等 长 度 的 测验 中 检测 异 
常 发 生 的 位 置 。 比 如 : Andrews (1993) 建 议 将 搜索 
的 范围 限制 为 了 = jiton- HP j KAE 
T 0.15n 。 换 名 话说 ,改变 点 发 生 的 位 置 大 致 等 于 整 
个 测验 中 间 部 分 的 70%, 这 样 可 以 保证 提高 检测 改 
变 点 发 生 位 置 的 准确 度 。 

对 于 %NF ,可 以 看 出 , 在 所 有 的 条 件 下 , W 
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表 5 模拟 研究 结果 (未 知 项 目 参 数 ) 


测验 i ee ia Power Type-I-Error — ADL,.., ADL. 
长 度 0.05 0.01 0.001 0.05 0.01 0.001 
0.6 0.001 0.96 0.97 0.97 0.0568 0.0128 0.0013 4.99 0.76 0.71 
0.7 0.001 0.95 0.95 0.90 | 0.0570 0.0131 0.0014 4.83 0.97 1.03 
i 0.6 0.04 0.95 0.93 0.93 0.0638 — 0.0147 0.005 4.72 2.73 2.98 
0.7 0.04 0.93 0.94 0.93 0.0513 0.0127 0.0015 4.83 5.55 6.49 
BERE 066 0.001 097 0.96 0.95 0.0625 0.0112 0.0015 471 0.86 076 | 
0.7 0.001 0.96 0.92 0.93 0.0530 0.0114 0.0017 4.57 1.04 1.18 
0.6 0.04 0.95 0.93 0.95 0.0531 0.0123 0.0015 4.54 4.11 4.95 
0.7 0.04 0.93 0.91 0.89 . 0.0584 0.0135 0.0013 4.60 6.76 6.99 
BUM 06 0001 094 092 93 0.0588 0.0128 0.0014 3.96 094 090 | 
0.7 0.001 0.93 0.92 0.90 0.0626 0.0149 0.0014 4.04 1.14 1.11 
i 0.6 0.04 0.93 0.94 0.93 0.0655 0.0111 — 0.0013 3.97 5.24 6.13 
0.7 0.04 0.93 0.92 0.92 0.0589 0.0120 0.0013 4.26 8.15 7.80 
0.6 0.001 0.99 0.99 0.98 0.0600 0.0116 0.0006 6.91 1.10 1.64 
0.7 0.001 0.97 0.94 0.95 0.0581 0.0136 0.0017 6.93 1.34 1.40 
» 0.6 0.04 0.97 0.96 0.97 | 0.0589 0.0143 0.0005 7.07 5.69 7.59 
0.7 0.04 0.96 0.96 0.94 0.0590 0.0146 0.0014 7.39 7.88 9.5] 
EN 066 0.001 098 0.99 0.98 0.028 0.0124 0.005 6.67 141 1376 | 
0.7 0.001 0.97 0.96 0.95 0.0601 0.0120 0.00017 6.59 1.72 1.84 
E a 0.6 0.04 0.96 0.99 0.92 0.0600 0.0131 0.0018 6.65 7.06 7.70 
0.7 0.04 0.94 0.92 0.95 0.0595 0.0145 0.0014 6.86 9.13 9.93 
DS 0.6 0.001 098 0.99 0.97 0.0632 0.0114 0.0016 627 193 188 
0.7 0.001 0.99 0.99 0.97 0.0594 0.0136 0.0004 6.12 2.20 1.94 
" 0.6 0.04 0.97 0.98 0.9 0.0599 0.0135 0.0015 6.03 9.22 9.46 
0.7 0.04 0.95 0.92 0.95 0.0585 0.0114 0.0019 6.26 10.82 10.74 
0.6 0.001 0.99 0.99 0.97 . 0.0715 0.0160 0.0026 6.95 1.79 1.96 
0.7 0.001 0.96 0.96 0.97 . 0.0817 0.0181 0.0004 7.49 1.84 0207 
ài 0.6 0.04 0.98 0.99 0.90 | 0.0777 0.0161 0.00205 7.19 6.00 7.10 
0.7 0.04 097 097 0.96 | 0.0742 0.0170 0.00203 7.97 11.07 — 10.39 
os 0.6 0.001 0.96 0.98 0.99 0.0776 0.0169 0.002 646 189 201 
0.7 0.001 0.97 0.96 0.98 0.0745 0.0182 0.0027 6.49 1.98 2.39 
* à 0.6 0.04 0.99 0.95 0.94 0.0758 0.0165 0.0023 6.78 7.12 7.50 
0.7 0.04 0.98 0.98 0.96 | 0.0788 0.0175 0.0004 7.01 9.36 10.42 
— 3 0.6 0.001 0.94 0.99 0.99 0.0757 0.0164 0.004 655 1.78 230 
0.7 0.001 0.99 0.99 0.99 0.0745 0.0172 0.0026 6.40 2.32 2.53 
= 0.6 0.04 0.96 0.97 0.99 0.0798 0.0182 0.0023 6.64 12.07 12.52 
0.7 0.04 0.95 0.99 0.97 . 0.0787 0.0162 0.0027 6.78 14.00 13.71 


验 长 度 为 40 时 ， 有 3.9%~5% 的 考生 没有 在 预定 的 
时 间 内 完成 测验 ; 在 测验 长 度 为 60 时 , 分别 有 
5.9%~7.3% 的 考生 没有 在 预定 的 时 间 内 完成 测验 。 
当 受 加 速 作答 影响 的 被 试 比例 达到 30%, 长 度 为 
80 的 测验 中 有 5.9%~8% 的 考生 没有 在 预定 的 时 间 
内 完成 测验 。 这 表明 测验 时 间 的 设置 是 比较 合理 的 ， 
受 加 速 作答 影响 的 考生 多 数 还 是 能 在 预定 的 时 间 


内 完成 考试 。 本 人 研究 中 ,那些 没有 按时 完成 测验 的 
考生 会 被 标记 成 异常 考生 。 表 4 中 的 检验 力 接 近 于 
1 表明 基于 CPA 的 方法 能 够 检测 出 那些 不 那么 严重 
的 加 速 作答 考生 ， 即 那些 存在 加 速 作答 行为 , 但 是 
仍然 在 规定 时 间 内 完成 测验 的 考生 。 
5.5.0 ”未 知 项 目 参 数 的 结果 

K 5 给 出 了 未 知 项 目 参数 时 , 似 然 比 统 计量 在 
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不 同 条 件 下 的 表现 。 总 体 来 说 , R 5 中 的 各 实验 条 
件 下 的 统计 检验 力 仍 然 很 高 ， 最 低 值 为 0.89, 一 类 
错误 率 也 得 了 很 好 的 控制 , 但 是 相对 于 表 4 中 的 结 
果 略 低 ， 说 明 未 知 项 目 参数 时 似 然 比 统计 量 的 表现 
仍然 可 靠 ,只 是 略 有 下 降 。 

表 5 中 的 结果 显示 出 了 和 表 4 中 的 结果 相同 的 
趋势 ， 即 随 着 测验 长 度 的 增加 ， 统计 检验 力 略 有 上 
升 ， 比 如 40 题 时 ,各 条 件 下 平均 的 检验 力 为 0.94 
(a = 0.05), 0.93 (a= 0.01), 0.93 (a= 0.001), 60 题 时 ， 
各 条 件 下 平均 的 检验 力 为 0.97 (a= 0.05), 0.97 (a= 
0.01), 0.96 (a= 0.001)。 在 a Ay 0.05 和 0.01 时 ,各 条 
件 下 的 一 类 错误 率 接近 显著 性 水 平 。 当 a 为 0.001 
时 ， 巾 于 过 于 极端 条 件 下 得 到 的 经 验 临界 值 导致 各 
条 件 下 的 一 类 错误 率 相对 较 小 。 关 于 加 速 作答 位 置 
的 估计 ， 可 以 看 出 测验 长 度 的 增加 会 导致 位 置 估计 
值 的 绝对 延迟 (lag) 变 大 , 测验 长 度 从 40 增加 到 80 
时 , 平均 的 ADL 从 3.19 增加 到 5.99。 异 常 位 置 
的 中 值 wogian 和 方差 pj, 也 会 影响 其 估计 值 , 尤其 
ERER ÉI Mar 会 造成 估计 的 位 置 有 较 大 的 延迟 。 当 
Mar 为 0.04 时 ,加 速 作 答 位 置 绝 对 延迟 佑 计 的 平均 
值 和 方差 分 别 为 7.92 和 8.44。 

综合 来 看 ， 本 人 研究 中 的 实验 条 件 与 Shao 等 人 
(2016), Yu 和 Cheng (2022) 相 近 , 虽然 与 表 4 和 表 5 
中 的 结果 不 能 直接 比较 , 但 是 也 还 是 有 一 定 的 指示 
作用 。 已 知 项 目 参 数 , 测验 长 度 为 40 时 ， 基 于 得 分 
数据 的 似 然 比 检验 和 Wald 检验 统计 量 检验 力 在 不 
同 条 件 下 的 最 小 值 和 最 大 值 分 别 为 0.50 和 0.94， 小 
于 本 研究 中 的 0.89 和 0.97。 

6 ”实证 数据 分 析 

为 了 展示 基于 CPA 的 方法 在 实测 数据 中 的 使 
用 , 我 们 将 前 面 介 绍 的 两 种 方法 应 用 到 实证 数据 ， 
该 数据 是 某 地 区 基础 教育 测量 中 的 四 年 级 的 数学 
BLA, 我 们 选 了 该 试卷 的 一 个 题 本 。 该 题 本 的 测验 
时 间 是 45 分 钟 ， 包括 36,000 个 考生 在 30 题 上 的 作 
答 时 间 。 所 有 的 题目 都 是 多 项 选择 题 ,， 在 计算 机 上 
完成 。 我 们 首先 对 数据 进行 了 整理 , 将 那些 测试 总 
时 间 过 短 ( 小 于 5 分 钟 ) 的 考生 数据 删除 。 同 时 为 了 
考察 CPA 方法 在 检测 更 轻微 加 速 作答 的 考生 上 的 
表现 , 我 们 也 删除 了 那些 在 测验 末期 题目 上 的 作答 
时 间 为 0 的 考生 。 最 终 有 33, 000 名 考生 的 数据 被 
保留 下 来 , 我 们 从 其 中 随机 抽取 5000 名 考生 的 作 
答 时 间 数 据 进行 分 析 。 

基于 这 5000 名 考生 的 作答 时 间 数 据 ， 首先 用 
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对 数 作 答 时 间 模 型 进行 拟 合 ,， 参数 估 计 所 用 到 的 软 
件 是 R 包 LNIRT (Fox et al., 2007, 2021)。 得 到 各 题 
目的 参数 w 和 pj 以 及 考生 的 速度 参数 0,7T ; A 
Tijo 5000 名 考生 的 速度 参数 均值 为 0 标准 差 为 
0.267， 对 应 的 直方 图 如 图 2 所 示 , 被 试 速度 呈 负 偏 
人 

800 


700 
600 


图 2 ”速度 参数 分 布 直方 图 


将 得 到 的 参数 用 于 计算 似 然 比 检验 统计 量 和 
Wald 检验 统计 量 的 值 。 这 两 个 统计 量 的 结果 非常 
接近 , 因此 , 我 们 这 里 只 给 出 基于 Wald 检验 统计 
mW Zee, SEF RH 8.068, 在 5000 名 考生 中 共有 
675 位 考生 被 检测 出 存在 加 速 作答 行为 ; SEF BÉ 
11.214, 共有 361 位 考生 被 检测 出 存在 加 速 作答 行 
为 ; FEF UE 15.702, 共有 271 位 考生 被 检测 出 存 
在 加 速 作答 行为 。 图 3 显示 了 编号 为 1034 考生 的 
作答 时 间 ， 这 个 考生 被 标记 为 异常 ， 以 及 其 期 望 作 
答 时 间 、 样 本 中 异常 考生 的 平均 作答 时 间 和 样本 中 
所 有 考生 的 平均 作答 时 间 。 其 中 蓝 色 线 表示 的 是 
1034 号 考生 各 题目 的 作答 时 间 ,， 红色 线 表 示 的 是 
测验 中 各 题目 的 平均 作答 时 间 ， 绿 色 线 表示 的 是 该 
考生 的 期 望 作答 时 间 , 可 以 看 出 该 考生 的 作答 速度 
在 前 面 18 题 是 略 高 于 平均 速度 的 , 但 是 在 这 之 后 
的 题目 上 的 作答 速度 是 低 于 平均 速度 的 。 灰 色 线 表 
示 的 是 所 有 识别 出 的 “异常 ”考生 的 平均 作答 时 间 。 
从 图 中 可 以 看 出 1034 号 考生 在 最 后 12 道 题 的 作答 
时 间 都 不 超过 30 h, 有 几 题 在 10 秒 左 右 ， 和 前 面 
的 18 道 题目 相 比 作答 时 间 有 很 大 的 下 降 。 另 外 从 
图 上 可 以 看 出 , 无 论 是 1034 号 考生 还 是 全 体 考生 ， 
测验 后 期 题目 的 平均 作答 时 间 有 下 降 的 趋势 ,说明 
考生 接近 考试 结束 时 的 题目 倾向 于 花 更 少 的 时 间 
TR, 并 且 所 有 “异常 ”考生 的 平均 作答 时 间 在 测 
验 后 期 下 降 的 幅度 更 大 。 

所 有 被 试 在 每 道 题目 (除了 最 后 的 一 道 题 ) 上 的 
平均 作答 时 间 为 30-65 秒 ， 最 后 的 一 道 题 的 平均 作 
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-全 -全 体 考 生 的 平均 项 目 作 答 时 间 


—— “异常 "考生 1034 各 项 目的 观察 作答 时 间 


二“ 虹 常 "考生 1034 各 项 目的 期 望 作答 时 间 
一 一 所 有 “异常 "考生 的 平均 作答 时 间 
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图 3 “异常 "考生 1034 的 各 项 目的 作答 时 间 、 期 望 作答 时 间 , 全 体 考生 平均 项 目 作 管 时 间 , 所 有 异常 考生 的 平均 项 目 


作答 时 间 


答 时 间接 近 26 秒 。 从 图 中 可 以 看 出 该 考生 在 测验 
前 期 各 题 的 作答 时 间 是 接近 或 大 于 平均 作答 时 间 的 ， 
但 是 在 18 题 之 后 , 各 题 的 作答 时 间 都 小 于 平均 作 
答 时 间 , 与 期 望 作 答 时 间 的 差距 明显 变 大 了 。 这 表 
明 将 编号 为 1034 的 考生 标记 为 异常 考生 是 合适 的 。 


7 结论 和 讨论 


本 文 基于 CPA 的 两 种 检验 统计 量 ,， 利用 作 管 
时 间 数 据 来 检测 具有 加 速 作 答 行为 的 考生 。 通 过 模 
拟 研究 和 实证 数据 分 析 对 CPA 方法 的 表现 进行 了 
评价 ,结果 显示 两 种 检验 统计 量 都 具有 非常 高 的 检 
验 力 , 并 且 能 够 很 好 的 控制 D 类 错误 率 , 本 人 研究 表 
明基 于 作答 时 间 数 据 在 异常 作答 行为 检测 上 具有 
很 高 的 检验 力 。 实 际 上 ， 基 于 得 分 数据 和 作答 时 间 
数据 在 检测 异 稼 作答 行为 时 各 有 其 特点 ,将 它们 结 
合 起 来 则 有 可 能 进一步 对 考生 的 异常 作答 行为 的 
类 型 进行 分 析 和 探索 。 

本 研究 的 结果 进一步 表明 基于 作答 时 间 数 据 
的 CPA 方法 具有 很 好 的 研究 前 景 ， 而 且 它 在 实际 
应 用 中 也 具有 可 行 性 。 首 先 , 本 人 研究 虽然 采用 对 数 
作答 时 间 模 型 来 拟 合 作答 时 间 数 据 , 但 是 基于 CPA 
的 方法 可 以 扩展 到 其 它 作 答 时 间 模 型 比如 4 参数 作 
答 时 间 模 型 (Wang & Hanson, 2005) 或 其 它 作答 时 
间 模 型 (Wang & Xu , 2015) 下 使 用 。 其 次 ,无 论 项 目 
参数 是 否 已 知 ， 本 研究 表 3 中 的 经 验 临 界 值 在 不 同 
测验 长 度 下 相当 接近 ,表明 可 以 在 不 同 长 度 的 测验 
使 用 相同 的 临界 值 ， 这样 使 得 方法 的 应 用 更 加 简单 
和 方便 ， 比 如 ， 当 删除 测验 中 的 某 些 题 或 增加 一 些 
题目 时 ,没有 必要 再 重新 确定 临界 值 。 

将 本 研究 中 所 涉及 到 的 方法 同时 应 用 得 分 数 
据 和 作答 时 间 数 据 上 值得 研究 。 一 方面 ， 与 得 分 数 


据 相 比 ， 基 于 作答 时 间 的 连续 数据 能 够 提供 更 丰富 
的 信息 ,作答 时 间 数 据 在 异常 作答 行为 的 检测 上 有 
优势 ; 另 一 方面 ， 得 分 数据 有 助 于 判断 异常 作答 行 
为 的 类 型 (Wang et al,. 2018)。 因 此 , 结合 得 分 数据 ， 
尤其 是 多 级 计 分 的 得 分 数据 ( 陈 青 SE, 2010; 程 小 
杨 等 ,2012) 与 作答 时 间 数 据 检 测 异常 作答 行为 和 
判断 异常 行为 类 型 值得 进一步 探索 和 尝试 。 本 人 研究 
AH, 不 同 测验 长 度 可 以 使 用 相同 的 临界 值 ， 因 此 ， 
本 研究 中 的 方法 应 该 可 以 很 容易 推广 到 自 适应 测 
验 CAT 或 多 阶段 自 适应 测验 中 ( 李 佳 ， 丁 树 良 , 2018; 
能 建华 等 , 2018)。 需 要 注意 的 是 , 加速 作答 只 是 一 
种 较 常 见 的 异常 作答 行为 , 本 研究 中 的 方法 可 以 应 
用 到 检测 其 它 类 型 的 异常 作答 行为 中 ， 比 如 应 用 到 
检测 调查 数据 中 的 低 作 答 动 机 考生 等 。 

最 后 , 基于 CPA 的 检测 方法 在 多 维 测验 中 也 
是 具有 可 行 性 和 价值 的 。 一 方面 现在 多 维 测验 逐渐 
增多 , 例如 在 基于 英语 语言 的 数学 测验 中 , 测验 同 
时 考察 英语 和 数学 两 个 维度 的 能 力 ( 张 龙 飞 等 ， 
2020), 另 一 方法 , 多维 RT 模型 的 数量 也 逐渐 增多 ， 
例如 和 詹 沛 达 等 人 (2020) 开 发 了 多 维 对 数 正 态 作答 时 
间 模 型 。 其 研究 不 但 表明 了 在 多 维 测验 中 , 潜在 加 
工 速度 具有 与 潜在 能 力 相 匹配 的 多 维 结构 ,还 在 模 
拟 研 究 中 实现 了 对 被 试 的 潜在 加 工 速度 的 估计 。 这 
说 明 将 CPA 方法 应 用 在 多 维 测 验 中 也 是 可 以 考虑 
TIE TAG 3 

除了 上 文 所 说 的 , 本 研究 还 有 实际 应 用 价值 。 
开发 不 同 的 方法 用 于 检测 考生 的 异常 作答 行为 是 
测验 领域 重要 的 质量 控制 解决 方案 。 这 个 问题 一 直 
得 不 到 很 好 的 解决 主要 是 由 于 题目 参数 和 考生 能 
力 参 数 估计 的 不 准确 ,等 值 所 带 来 的 偏差 以 及 对 考 
生 作 答 行为 的 不 正确 解释 所 造成 的 。 比 如 ， 一 些 终 
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结 性 测验 的 长 度 可 能 会 很 长 , 包含 的 内 容 也 很 多 ， 
这 时 需要 综合 进行 考虑 以 确定 合适 的 测验 长 度 ， 让 
大 部 分 的 考生 都 有 足够 的 时 间 完 成 测验 (van der 
Linden, 2011; Patton, 2015; Patton et al.,2019)。 在 高 
风险 测验 中 , 考生 在 接近 考试 结束 时 间 时 会 尽力 完 
成 所 有 的 题目 ， 对 接近 结束 时 间 的 题目 采用 快速 猜 
测 策 略 等 。 在 这 种 情况 下 , 没有 完成 测验 中 所 有 题 
目的 考生 比例 可 能 会 较 少 , 因此 需要 有 合适 的 方法 
来 探查 加 速 作答 行为 的 流行 程度 。 对 于 新 开发 的 测 
验 系统 ， 建 议 能 够 记录 下 每 位 考生 在 每 个 题目 上 的 
作答 时 间 ,， 这 可 以 为 之 后 使 用 CPA 方法 来 探测 异 
常 作答 行为 打下 基础 。 

本 研究 虽然 取得 了 一 些 有 意义 的 结果 , 但 还 存 
在 一 些 不 足 之 处 。 首 先 , 一 般 考 试 中 通常 记录 的 是 
考生 的 得 分 数据 以往 也 有 人 研究 基于 得 分 数据 检测 
MEEK, 本 人 研究 中 采用 的 是 作答 时 间 数 据 。 当 基 
于 作答 时 间 数 据 与 基于 得 分 数据 的 检测 结果 出 现 
政 盾 , 仅 从 统计 分 析 结 果 不 容易 判断 哪 种 数据 的 检 
测 结果 是 准确 的 时 候 ， 我 们 需要 引入 更 多 的 信息 
(包括 对 测验 内 容 的 具体 分 析 , 其 它 统 计量 的 分 析 ， 
其 至 是 考场 中 的 摄像 记录 和 历史 数据 等 ) 来 谨慎 地 
对 这 种 数据 做 出 综合 评估 (Wang et al., 2018)。 AX, 
本 研究 应 用 的 CPA 方法 需要 假设 改变 点 位 置 前 后 
的 作答 概率 模型 是 已 知 的 。 但 是 在 实际 应 用 中 , gk 
变 点 位 置 前 后 的 概率 结构 可 能 是 未 知 的 。 未 来 需要 
进一步 探索 不 依赖 于 模型 的 改变 点 检测 方法 。 男 外 ， 
当 CPA 方法 检测 到 了 改变 点 时 , 我 们 只 能 推 晰 作 
答 数据 发 生 改 变 的 可 能 原因 。 例 如 ,， 低 作答 动机 和 
加 速 作答 都 可 能 会 导致 作答 时 间 异 常 减少 ， 本 人 研究 
中 的 方法 并 不 能 对 它们 加 以 区 分 ， 也 就 是 说 ，CPA 
方法 不 能 确定 数据 出 现 异常 的 原因 。 在 这 一 点 上 我 
们 需要 结合 其 它 的 信息 比如 利用 专家 的 领域 知识 
来 确定 异常 原因 。 未 来 还 可 结合 作答 数据 和 作答 时 
间 数 据 ， 进 一 步 开发 基于 CPA 的 方法 来 检测 不 同 
的 异常 作答 行为 ， 充分 发 挥 作答 时 间 数 据 在 检测 异 
常 作 管 行为 上 高 检验 力 的 优势 。 而且 对 于 一 些 高 风 
险 测验 , 结合 作答 数据 与 作答 时 间 数 据 共同 做 出 推 
断 会 更 加 的 合适 。 最 后 ， 目 前 使 用 CPA 进行 检测 的 
人 研究 大 部 分 是 基于 大 样本 ,未 来 可 以 尝试 将 CPA 方 
法 推广 到 小 样本 的 情况 中 检测 异常 作答 ,观察 CPA 
方法 的 检测 效 末 。 
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Abstract 

In recent years, response time has received a rapidly growing amount of attention in psychometric research, 
likely due to the increasing availability of (item-level) response time data through computer-based testing and 
online survey data collection. Compared to the conventional item response data that are often dichotomous or 
polytomous, the response time is continuous and can provide much more information. Aberrant response 
behaviors are frequently encountered during testing. It could cause various negative effects. Change point 
analysis (CPA) is a well-established statistical process control method to detect changes in a sequence, and it has 
provided testing professionals a new lens through to understand test-taking behavior at both the examinee and 
item levels. 

In this paper, we took test speededness as an example to illustrate how the CPA method can be used to 
detect aberrant behavior using item response time data. Response time under speededness was simulated using 
the gradual-change log-normal model for response time. Two CPA-based test statistics, the Likelihood Ratio Test 
and Wald Test, were used to detect aberrant response behaviors. The critical values were obtained through Monte 
Carlo simulations and compared with the approximate critical values in a previous study. Based on the chosen 
critical values, we examined the performance of the likelihood ratio test and Wald test in detecting speeded 
responses, specifically in terms of power and empirical Type-I error. 

On the one hand, the critical values are almost identical for Wald and the likelihood ratio test. They vary 
substantially at different nominal a levels, but do not differ much across different test lengths. On the other hand, 
compared to approximate critical values, the critical values are not too far away from them but are different. 
That may be because the approximate critical values are suitable for situations where the change point appears in 
the middle of the test. Results indicate that the proposed method is much more powerful based on the critical 
values than conventional methods that use item response data. The power was close to 1 for most of the 
conditions while keeping the type-I error rate well-controlled. Real data analysis also demonstrates the 
performance of the method. 

This study uses CPA with response time data and offers a very promising approach to detecting aberrant 
response behavior. Through the simulation study, we demonstrated that it is possible to use fixed critical values 
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in different test lengths, which makes the application of the method straightforward. It also means that it is 

unnecessary to reconduct the simulation to update critical values when small changes occur in the test. CPA 1s 

very flexible. This study assumed that the log-normal model fits the response time data, but the method is not 

bounded by that assumption. 

Key words change point analysis, aberrant response behaviors, response time, test speededness, statistical process 
control 


